神经网络在分布中的数据中取得了令人印象深刻的性能,该数据与训练集相同,但可以为这些网络从未见过的数据产生过分自信的结果。因此,至关重要的是要检测输入是否来自分布(OOD),以确保现实世界中部署的神经网络的安全性。在本文中,我们提出了一种简单有效的事后技术Weshort,以减少神经网络对OOD数据的过度自信。我们的方法灵感来自对内部残留结构的观察,该结构显示了捷径层中OOD和分布(ID)数据的分离。我们的方法与不同的OOD检测分数兼容,并且可以很好地推广到网络的不同体系结构。我们在各种OOD数据集上演示了我们的方法,以展示其竞争性能,并提供合理的假设,以解释我们的方法为何起作用。在Imagenet基准测试上,Weshort在假阳性率(FPR95)和接收器操作特征(AUROC)下实现了最先进的性能(在事后方法)上。
translated by 谷歌翻译
Surgery is the only viable treatment for cataract patients with visual acuity (VA) impairment. Clinically, to assess the necessity of cataract surgery, accurately predicting postoperative VA before surgery by analyzing multi-view optical coherence tomography (OCT) images is crucially needed. Unfortunately, due to complicated fundus conditions, determining postoperative VA remains difficult for medical experts. Deep learning methods for this problem were developed in recent years. Although effective, these methods still face several issues, such as not efficiently exploring potential relations between multi-view OCT images, neglecting the key role of clinical prior knowledge (e.g., preoperative VA value), and using only regression-based metrics which are lacking reference. In this paper, we propose a novel Cross-token Transformer Network (CTT-Net) for postoperative VA prediction by analyzing both the multi-view OCT images and preoperative VA. To effectively fuse multi-view features of OCT images, we develop cross-token attention that could restrict redundant/unnecessary attention flow. Further, we utilize the preoperative VA value to provide more information for postoperative VA prediction and facilitate fusion between views. Moreover, we design an auxiliary classification loss to improve model performance and assess VA recovery more sufficiently, avoiding the limitation by only using the regression metrics. To evaluate CTT-Net, we build a multi-view OCT image dataset collected from our collaborative hospital. A set of extensive experiments validate the effectiveness of our model compared to existing methods in various metrics. Code is available at: https://github.com/wjh892521292/Cataract OCT.
translated by 谷歌翻译
How can we augment a dynamic graph for improving the performance of dynamic graph neural networks? Graph augmentation has been widely utilized to boost the learning performance of GNN-based models. However, most existing approaches only enhance spatial structure within an input static graph by transforming the graph, and do not consider dynamics caused by time such as temporal locality, i.e., recent edges are more influential than earlier ones, which remains challenging for dynamic graph augmentation. In this work, we propose TiaRa (Time-aware Random Walk Diffusion), a novel diffusion-based method for augmenting a dynamic graph represented as a discrete-time sequence of graph snapshots. For this purpose, we first design a time-aware random walk proximity so that a surfer can walk along the time dimension as well as edges, resulting in spatially and temporally localized scores. We then derive our diffusion matrices based on the time-aware random walk, and show they become enhanced adjacency matrices that both spatial and temporal localities are augmented. Throughout extensive experiments, we demonstrate that TiaRa effectively augments a given dynamic graph, and leads to significant improvements in dynamic GNN models for various graph datasets and tasks.
translated by 谷歌翻译
运动转移旨在将驱动视频的运动转移到源图像。当驾驶视频中的对象与源图像中的对象之间存在很大差异时,传统的单个域运动转移方法通常会产生显着的伪影。例如,合成的图像可能无法保留源图像的人类形状(参见图1(a))。为了解决这个问题,在这项工作中,我们提出了一种运动和外观适应(MAA)进行跨域运动转移的方法,在该方法中,我们将合成图像中的对象正规化,以捕获驾驶框架中对象的运动,而仍保留对象在源图像中的形状和外观。一方面,考虑合成图像和驾驶框架的对象形状可能有所不同,我们设计了一个形状不变的运动适应模块,该模块可以在两个图像中强制对象零件的角度的一致性来捕获运动信息。另一方面,我们引入了一个结构引导的外观一致性模块,旨在使合成图像的相应贴片和源图像之间的相似性正式化,而不会影响合成图像中学习的运动。我们提出的MAA模型可以通过循环重建损失以端到端的方式进行训练,并最终产生令人满意的运动转移结果(参见图1(b))。我们在人类舞蹈数据集Mixamo-Video上进行了广泛的实验,以便于时尚视频和人脸数据集vox-celeb到cufs;在这两个方面,我们的MAA模型在定量和定性上都优于现有方法。
translated by 谷歌翻译
深度神经网络(DNN)越来越多地应用于恶意软件检测中,其鲁棒性已广泛争论。传统上,对抗性示例生成方案依赖于详细的模型信息(基于梯度的方法)或许多样本来训练替代模型,在大多数情况下都无法使用。我们提出了基于实例的攻击的概念。我们的方案是可解释的,可以在黑箱环境中起作用。给定一个特定的二进制示例和恶意软件分类器,我们使用数据增强策略来生成足够的数据,我们可以从中训练一个简单的可解释模型。我们通过显示特定二进制的不同部分的重量来解释检测模型。通过分析解释,我们发现数据小节在Windows PE恶意软件检测中起重要作用。我们提出了一个新函数,以保存可以应用于数据子分校的转换算法。通过采用我们提出的二进制多样化技术,我们消除了最加权零件对产生对抗性例子的影响。在某些情况下,我们的算法可以欺骗DNN,成功率接近100 \%。我们的方法的表现优于最新方法。最重要的方面是我们的方法在黑框设置中运行,并且可以通过域知识来验证结果。我们的分析模型可以帮助人们改善恶意软件探测器的鲁棒性。
translated by 谷歌翻译
功能级二进制代码相似性检测在网络空间安全性领域至关重要。它可以帮助我们在发布的软件中找到错误并检测专利侵权,并在预防供应链攻击中起关键作用。一个实用的嵌入学习框架依赖于矢量表示系统的鲁棒性以及功能对注释的准确性。传统上,基于学习的方法是基于学习的方法。但是,用准确的标签对不同的功能对进行注释非常困难。这些监督的学习方法很容易被过度训练,并且遭受了鲁棒性问题的困扰。为了减轻这些问题,我们提出了FUN2VEC:二进制功能级表示的对比学习框架。我们采用一种无监督的学习方法,并将二进制代码相似性检测作为实例歧视。 FUN2VEC直接用于分解的二进制功能,并且可以使用任何编码器实现。它不需要标记类似或不同信息的手动。我们使用编译器优化选项和代码混淆技术来生成增强数据。我们的实验结果表明,我们的方法超过了准确性的最先进,并且在几次射击设置中具有很大的优势。
translated by 谷歌翻译
平均精度(AP)损失最近在密集的对象检测任务上显示出有希望的性能。但是,尚未开发出对AP损失如何影响检测器的深刻了解。在这项工作中,我们重新审视平均精度(AP)损失,并揭示了关键元素是选择排名对的关键元素基于该观察结果,我们提出了两种改善AP损失的策略。其中的第一个是一种新型的自适应成对误差(APE)损失,该损失集中在正面和负样本中的排名对。此外,我们通过使用聚类算法利用归一化排名得分和本地化得分来选择更准确的排名对。在MSCOCO数据集上进行的实验支持我们的分析,并证明了我们提出的方法的优越性与当前分类和排名损失相比。该代码可从https://github.com/xudangliatiger/ape-loss获得。
translated by 谷歌翻译
给定图表具有部分观察到节点特征,我们如何准确估计缺失功能?特征估计是分析现实图表的关键问题,其特征在数据收集过程中通常缺少。准确的估计不仅提供了节点的多种信息,而且还支持需要全面观察节点特征的图形神经网络的推断。但是,设计一种估计高维特征的有效方法是具有挑战性的,因为它要求估算器具有较大的表示能力,从而增加过度拟合的风险。在这项工作中,我们提出了SVGA(结构化变分图自动编码器),这是一种精确的特征估计方法。 SVGA通过结构化变异推断将强固体化应用于潜在变量的分布,该变量推断将变量的先前作为基于图结构的高斯马尔可夫随机字段建模。结果,SVGA结合了概率推理和图形神经网络的优势,在实际数据集中实现了最新性能。
translated by 谷歌翻译
计算机辅助医学图像分割已广泛应用于诊断和治疗,以获得靶器官和组织的形状和体积的临床有用信息。在过去的几年中,基于卷积神经网络(CNN)的方法(例如,U-Net)占主导地位,但仍遭受了不足的远程信息捕获。因此,最近的工作提出了用于医学图像分割任务的计算机视觉变压器变体,并获得了有希望的表现。这种变压器通过计算配对贴片关系来模拟远程依赖性。然而,它们促进了禁止的计算成本,尤其是在3D医学图像(例如,CT和MRI)上。在本文中,我们提出了一种称为扩张变压器的新方法,该方法在本地和全球范围内交替捕获的配对贴片关系进行自我关注。灵感来自扩张卷积核,我们以扩张的方式进行全球自我关注,扩大接收领域而不增加所涉及的斑块,从而降低计算成本。基于这种扩展变压器的设计,我们构造了一个用于3D医学图像分割的U形编码器解码器分层体系结构。 Synapse和ACDC数据集的实验表明,我们的D-Ager Model从头开始培训,以低计算成本从划痕训练,优于各种竞争力的CNN或基于变压器的分段模型,而不耗时的每训练过程。
translated by 谷歌翻译
Unsupervised domain adaptation (UDA) for semantic segmentation is a promising task freeing people from heavy annotation work. However, domain discrepancies in low-level image statistics and high-level contexts compromise the segmentation performance over the target domain. A key idea to tackle this problem is to perform both image-level and feature-level adaptation jointly. Unfortunately, there is a lack of such unified approaches for UDA tasks in the existing literature. This paper proposes a novel UDA pipeline for semantic segmentation that unifies image-level and feature-level adaptation. Concretely, for image-level domain shifts, we propose a global photometric alignment module and a global texture alignment module that align images in the source and target domains in terms of image-level properties. For feature-level domain shifts, we perform global manifold alignment by projecting pixel features from both domains onto the feature manifold of the source domain; and we further regularize category centers in the source domain through a category-oriented triplet loss and perform target domain consistency regularization over augmented target domain images. Experimental results demonstrate that our pipeline significantly outperforms previous methods. In the commonly tested GTA5$\rightarrow$Cityscapes task, our proposed method using Deeplab V3+ as the backbone surpasses previous SOTA by 8%, achieving 58.2% in mIoU.
translated by 谷歌翻译